home *** CD-ROM | disk | FTP | other *** search
/ Cream of the Crop 25 / Cream of the Crop 25.iso / os2 / gnuwget.zip / wget-1.4.3 / doc / wget.info-2 (.txt) < prev    next >
GNU Info File  |  1997-02-09  |  33KB  |  678 lines

  1. This is Info file wget.info, produced by Makeinfo version 1.67 from the
  2. input file ./wget.texi.
  3.    Permission is granted to make and distribute verbatim copies of this
  4. manual provided the copyright notice and this permission notice are
  5. preserved on all copies.  Permission is granted to copy and distribute
  6. modified versions of this manual under the conditions for verbatim
  7. copying, provided also that the sections entitled "Copying" and "GNU
  8. General Public License" are included exactly as in the original, and
  9. provided that the entire resulting derived work is distributed under
  10. the terms of a permission notice identical to this one.
  11. File: wget.info,  Node: Wgetrc Commands,  Next: Sample Wgetrc,  Prev: Wgetrc Syntax,  Up: Startup File
  12. Wgetrc Commands
  13. ===============
  14.    The complete set of commands is listed below, the letter after `='
  15. denoting the value the command takes. It is `on/off' for `on' or `off'
  16. (which can also be `1' or `0'), STRING for any non-empty string or N
  17. for a positive integer.  For example, you may specify `use_proxy = off'
  18. to disable use of PROXY servers by default. You may use `inf' for
  19. infinite values, where appropriate.
  20.    Most of the commands have their equivalent command-line option
  21. (*Note Invoking::), except some more obscure or rarely used ones.
  22. accept/reject = STRING
  23.      Same as `-A'/`-R' (*Note Types of Files::).
  24. add_hostdir = on/off
  25.      Enable/disable host-prefixed file names. `-nH' disables it.
  26. always_rest = on/off
  27.      Enable/disable continuation of the retrieval, the same as `-c'.
  28. base = STRING
  29.      Set base for relative URLs, the same as `-B'.
  30. convert links = on/off
  31.      Convert non-relative links locally. The same as `-k'.
  32. debug = on/off
  33.      Debug mode, same as `-d'.
  34. delete_after = on/off
  35.      Delete after download, the same as `--delete-after'.
  36. dir_mode = N
  37.      Set permission modes of created subdirectories (default is 0755).
  38. dir_prefix = STRING
  39.      Top of directory tree, the same as `-P'.
  40. dirstruct = on/off
  41.      Turning dirstruct on or off, the same as `-x' or `-nd',
  42.      respectively.
  43. domains = STRING
  44.      Same as `-D' (*Note Domain Acceptance::).
  45. dot_bytes = N
  46.      Specify the number of bytes "contained" in a dot, as seen
  47.      throughout the retrieval (1024 by default).  You can postfix the
  48.      value with `k' or `m', representing kilobytes and megabytes,
  49.      respectively.  With dot settings you can tailor the dot retrieval
  50.      to suit your needs, or you can use the predefined "styles" (*Note
  51.      Advanced Options::).
  52. dots_in_line = N
  53.      Specify the number of dots that will be printed in each line
  54.      throughout the retrieval (50 by default).
  55. dot_spacing = N
  56.      Specify the number of dots in a single cluster (10 by default).
  57. dot_style = STRING
  58.      Specify the dot retrieval "style", as with `--dot-style'.
  59. exclude_directories = STRING
  60.      Specify a comma-separated list of directories you wish to exclude
  61.      from download, the same as `-X' (*Note Directory-Based Limits::).
  62. exclude_domains = STRING
  63.      Same as `--exclude-domains' (*Note Domain Acceptance::).
  64. follow_ftp = on/off
  65.      Follow FTP links from HTML documents, the same as `-f'.
  66. force_html = on/off
  67.      If set to on, force the input filename to be regarded as an HTML
  68.      document, the same as `-F'.
  69. ftp_proxy = STRING
  70.      Use STRING as FTP proxy, instead of the one specified in
  71.      environment.
  72. glob = on/off
  73.      Turn globbing on/off, the same as `-g'.
  74. header = STRING
  75.      Define an additional header, like `--header'.
  76. http_passwd = STRING
  77.      Set HTTP password.
  78. http_proxy = STRING
  79.      Use STRING as HTTP proxy, instead of the one specified in
  80.      environment.
  81. http_user = STRING
  82.      Set HTTP user to STRING.
  83. ignore_length = on/off
  84.      When set to on, ignore `Content-Length' header; the same as
  85.      `--ignore-length'.
  86. include_directories = STRING
  87.      Specify a comma-separated list of directories you wish to follow
  88.      when downloading, the same as `-I'.
  89. input = STRING
  90.      Read the URLs from STRING, like `-i'.
  91. kill_longer = on/off
  92.      Consider data longer than specified in content-length header as
  93.      invalid (and retry getting it). The default behaviour is to save
  94.      as much data as there is, provided there is more than or equal to
  95.      the value in `Content-Length'.
  96. logfile = STRING
  97.      Set logfile, the same as `-o'.
  98. login = STRING
  99.      Your user name on the remote machine, for FTP Defaults to
  100.      `anonymous'.
  101. mirror = on/off
  102.      Turn mirroring on/off. The same as `-m'.
  103. noclobber = on/off
  104.      Same as `-nc'.
  105. no_proxy = STRING
  106.      Use STRING as the comma-separated list of domains to avoid in
  107.      PROXY loading, instead of the one specified in environment.
  108. no_parent = on/off
  109.      Disallow retrieving outside the directory hierarchy, like
  110.      `--no-parent' (*Note Directory-Based Limits::).
  111. output_document = STRING
  112.      Set the output filename, the same as `-O'.
  113. passive_ftp = on/off
  114.      Set passive FTP, the same as `--passive-ftp'.
  115. passwd = STRING
  116.      Set your FTP password to PASSWORD.  Without this setting, the
  117.      password defaults to `username@hostname.domainname'.
  118. quiet = on/off
  119.      Quiet mode, the same as `-q'.
  120. quota = QUOTA
  121.      Specify the download quota, which is useful to put in global
  122.      wgetrc. When download quota is specified, Wget will stop retrieving
  123.      after the download sum has become greater than quota.  The quota
  124.      can be specified in bytes (default), kbytes `k' appended) or mbytes
  125.      (`m' appended).  Thus `quota = 5m' will set the quota to 5 mbytes.
  126.      Note that the user's startup file overrides system settings.
  127. reclevel = N
  128.      Recursion level, the same as `-l'.
  129. recursive = on/off
  130.      Recursive on/off, the same as `-r'.
  131. relative_only = on/off
  132.      Follow only relative links, the same as `-L' (*Note Relative
  133.      Links::).
  134. remove_listing = on/off
  135.      If set to on, remove FTP listings downloaded by Wget.  Setting it
  136.      to off is the same as `-nr'.
  137. retr_symlinks = on/off
  138.      When set to on, retrieve symbolic links as if they were plain
  139.      files; the same as `--retr-symlinks'.
  140. robots = on/off
  141.      Use (or not) `/robots.txt' file (*Note Robots::).  Be sure to know
  142.      what you are doing before changing the default (which is `on').
  143. server_response = on/off
  144.      Choose whether or not to print the HTTP and FTP server responses,
  145.      the same as `-S'.
  146. simple_host_check = on/off
  147.      Same as `-nh' (*Note Host Checking::).
  148. span_hosts = on/off
  149.      Same as `-H'.
  150. timeout = N
  151.      Set timeout value, the same as `-T'.
  152. timestamping = on/off
  153.      Turn timestamping on/off. The same as `-N' (*Note Time-Stamping::).
  154. tries = N
  155.      Set number of retries per URL, the same as `-t'.
  156. use_proxy = on/off
  157.      Turn PROXY support on/off. The same as `-Y'.
  158. verbose = on/off
  159.      Turn verbose on/off, the same as `-v'/`-nv'.
  160. wait = N
  161.      Wait N seconds between retrievals, the same as `-w'.
  162. File: wget.info,  Node: Sample Wgetrc,  Prev: Wgetrc Commands,  Up: Startup File
  163. Sample Wgetrc
  164. =============
  165.    This is the sample initialization file, as given in the distribution.
  166. It is divided in two section--one for global usage (suitable for global
  167. startup file), and one for local usage (suitable for `$HOME/.wgetrc').
  168. Be careful about the things you change.
  169.    Note that all the lines are commented out.  For any line to have
  170. effect, you must remove the `#' prefix at the beginning of line.
  171.      ###
  172.      ### Sample initialization file .wgetrc
  173.      ###
  174.      
  175.      ## You can use this file to change the default behaviour of wget or to
  176.      ## avoid having to type many many command-line options. This file does
  177.      ## not contain a comprehensive list of commands -- look at the manual
  178.      ## to find out what you can put into this file.
  179.      ##
  180.      ## Wget initialization file can reside in /usr/local/etc/wgetrc
  181.      ## (global, for all users) or $HOME/.wgetrc (for a single user).
  182.      ##
  183.      ## To use any of the settings in this file, you will have to uncomment
  184.      ## them (and probably change them).
  185.      
  186.      
  187.      ##
  188.      ## Global settings (useful for setting up in /usr/local/etc/wgetrc).
  189.      ## Think well before you change them, since they may reduce wget's
  190.      ## functionality, and make it behave contrary to the documentation:
  191.      ##
  192.      
  193.      # You can set retrieve quota for beginners by specifying a value
  194.      # optionally followed by 'K' (kilobytes) or 'M' (megabytes).  The
  195.      # default quota is unlimited.
  196.      #quota = inf
  197.      
  198.      # You can lower (or raise) the default number of retries when
  199.      # downloading a file (default is 20).
  200.      #tries = 20
  201.      
  202.      # Lowering the maximum depth of the recursive retrieval is handy to
  203.      # prevent newbies from going too "deep" when they unwittingly start
  204.      # the recursive retrieval.  The default is 5.
  205.      #reclevel = 5
  206.      
  207.      # Many sites are behind firewalls that do not allow initiation of
  208.      # connections from the outside.  On these sites you have to use the
  209.      # `passive' feature of FTP.  If you are behind such a firewall, you
  210.      # can turn this on to make Wget use passive FTP by default.
  211.      #passive_ftp = off
  212.      
  213.      
  214.      ##
  215.      ## Local settings (for a user to set in his $HOME/.wgetrc).  It is
  216.      ## *highly* undesirable to put these settings in the global file, since
  217.      ## they are potentially dangerous to "normal" users.
  218.      ##
  219.      ## Even when setting up your own ~/.wgetrc, you should know what you
  220.      ## are doing before doing so.
  221.      ##
  222.      
  223.      # Set this to on to use timestamping by default:
  224.      #timestamping = off
  225.      
  226.      # It is a good idea to make Wget send your email address in a `From:'
  227.      # header with your request (so that server administrators can contact
  228.      # you in case of errors).  Wget does *not* send `From:' by default.
  229.      #header = From: Your Name <username@site.domain>
  230.      
  231.      # You can set up other headers, like Accept-Language.  Accept-Language
  232.      # is *not* sent by default.
  233.      #header = Accept-Language: en
  234.      
  235.      # You can set the default proxy for Wget to use.  It will override the
  236.      # value in the environment.
  237.      #http_proxy = http://proxy.yoyodyne.com:18023/
  238.      
  239.      # If you do not want to use proxy at all, set this to off.
  240.      #use_proxy = on
  241.      
  242.      # You can customize the retrieval outlook.  Valid options are default,
  243.      # binary, mega and micro.
  244.      #dot_style = default
  245.      
  246.      # Setting this to off makes Wget not download /robots.txt.  Be sure to
  247.      # know *exactly* what /robots.txt is and how it is used before changing
  248.      # the default!
  249.      #robots = on
  250.      
  251.      # It can be useful to make Wget wait between connections.  Set this to
  252.      # the number of seconds you want Wget to wait.
  253.      #wait = 0
  254.      
  255.      # You can force creating directory structure, even if a single is being
  256.      # retrieved, by setting this to on.
  257.      #dirstruct = off
  258.      
  259.      # You can turn on recursive retrieving by default (don't do this if
  260.      # you are not sure you know what it means) by setting this to on.
  261.      #recursive = off
  262.      
  263.      # To have Wget follow FTP links from HTML files by default, set this
  264.      # to on:
  265.      #follow_ftp = off
  266. File: wget.info,  Node: Examples,  Next: Various,  Prev: Startup File,  Up: Top
  267. Examples
  268. ********
  269.    The examples are classified into three sections, because of clarity.
  270. The first section is a tutorial for beginners.  The second section
  271. explains some of the more complex program features.  The third section
  272. contains advice for mirror administrators, as well as even more complex
  273. features (that some would call perverted).
  274. * Menu:
  275. * Simple Usage::        Simple, basic usage of the program.
  276. * Advanced Usage::      Advanced techniques of usage.
  277. * Guru Usage::          Mirroring and the hairy stuff.
  278. File: wget.info,  Node: Simple Usage,  Next: Advanced Usage,  Prev: Examples,  Up: Examples
  279. Simple Usage
  280. ============
  281.    * Say you want to download a URL.  Just type:
  282.           wget http://fly.cc.fer.hr/
  283.      The response will be something like:
  284.           --13:30:45--  http://fly.cc.fer.hr:80/
  285.                      => `index.html'
  286.           Connecting to fly.cc.fer.hr:80... connected!
  287.           HTTP request sent, fetching headers... done.
  288.           Length: 1,749 [text/html]
  289.           
  290.               0K -> .
  291.           
  292.           13:30:46 (68.32K/s) - `index.html' saved [1749/1749]
  293.    * But what will happen if the connection is slow, and the file is
  294.      lengthy?  The connection will probably fail before the whole file
  295.      is retrieved, more than once.  In this case, Wget will try getting
  296.      the file until it either gets the whole of it, or exceeds the
  297.      default number of retries (this being 20).  It is easy to change
  298.      the number of tries to 45, to insure that the whole file will
  299.      arrive safely:
  300.           wget --tries=45 http://fly.cc.fer.hr/jpg/flyweb.jpg
  301.    * Now let's leave Wget to work in the background, and write its
  302.      progress to log file `log'.  It is tiring to type `--tries', so we
  303.      shall use `-t'.
  304.           wget -t 45 -o log http://fly.cc.fer.hr/jpg/flyweb.jpg &
  305.      The ampersand at the end of the line makes sure that Wget works in
  306.      the background.  To unlimit the number of retries, use `-t inf'.
  307.    * The usage of FTP is as simple.  Wget will take care of login and
  308.      password.
  309.           $ wget ftp://gnjilux.cc.fer.hr/welcome.msg
  310.           --23:35:55--  ftp://gnjilux.cc.fer.hr:21/welcome.msg
  311.                      => `welcome.msg'
  312.           Connecting to gnjilux.cc.fer.hr:21... connected!
  313.           Logging in as anonymous ... Logged in!
  314.           ==> TYPE I ... done.  ==> CWD not needed.
  315.           ==> PORT ... done.    ==> RETR welcome.msg ... done.
  316.           Length: 1,340 (unauthoritative)
  317.           
  318.               0K -> .
  319.           
  320.           23:35:56 (37.39K/s) - `welcome.msg' saved [1340]
  321.    * If you specify a directory, Wget will retrieve the directory
  322.      listing, parse it and convert it to HTML.  Try:
  323.           wget ftp://prep.ai.mit.edu/pub/gnu/
  324.           lynx index.html
  325. File: wget.info,  Node: Advanced Usage,  Next: Guru Usage,  Prev: Simple Usage,  Up: Examples
  326. Advanced Usage
  327. ==============
  328.    * You would like to read the list of URLs from a file?  Not a problem
  329.      with that:
  330.           wget -i file
  331.      If you specify `-' as file name, the URLs will be read from
  332.      standard input.
  333.    * Create a mirror image of GNU WWW site (with the same directory
  334.      structure the original has) with only one try per document, saving
  335.      the log of the activities to `gnulog':
  336.           wget -r -t1 http://www.gnu.ai.mit.edu/ -o gnulog
  337.    * Retrieve the first layer of yahoo links:
  338.           wget -r -l1 http://www.yahoo.com/
  339.    * Retrieve the index.html of `www.lycos.com', showing the original
  340.      server headers:
  341.           wget -S http://www.lycos.com/
  342.    * Save the server headers with the file:
  343.           wget -s http://www.lycos.com/
  344.           more index.html
  345.    * Retrieve the first two levels of `wuarchive.wustl.edu', saving them
  346.      to /tmp.
  347.           wget -P/tmp -l2 ftp://wuarchive.wustl.edu/
  348.    * You want to download all the GIFs from an HTTP directory.  `wget
  349.      http://host/dir/*.gif' doesn't work, since HTTP retrieval does not
  350.      support globbing.  In that case, use:
  351.           wget -r -l1 --no-parent -A.gif http://host/dir/
  352.      It is a bit of a kludge, but it works perfectly.  `-r -l1' means to
  353.      retrieve recursively (*Note Advanced Options::), with maximum
  354.      depth of 1.  `--no-parent' means that references to the parent
  355.      directory are ignored (*Note Directory-Based Limits::), and
  356.      `-A.gif' means to download only the GIF files.  `-A "*.gif"' would
  357.      have worked too.
  358.    * Suppose you were in the middle of downloading, when Wget was
  359.      interrupted.  Now you do not want to clobber the files already
  360.      present.  It would be:
  361.           wget -nc -r http://www.gnu.ai.mit.edu/
  362.    * If you want to encode your own username and password to HTTP or
  363.      FTP, use the appropriate URL syntax (*Note URL Format::).
  364.           wget ftp://hniksic:mypassword@jagor.srce.hr/.emacs
  365.    * If you do not like the default retrieval visualization (1K dots
  366.      with 10 dots per cluster and 50 dots per line), you can customize
  367.      it through dot settings (*Note Wgetrc Commands::).  For example,
  368.      many people like the "binary" style of retrieval, with 8K dots and
  369.      512K lines:
  370.           wget --dot-style=binary ftp://prep.ai.mit.edu/pub/gnu/README
  371.      You can experiment with other styles, like:
  372.           wget --dot-style=mega ftp://ftp.xemacs.org/pub/xemacs/xemacs-19.15.tar.gz
  373.           wget --dot-style=micro http://fly.cc.fer.hr/
  374.      To make these settings permanent, put them in your `.wgetrc', as
  375.      described before (*Note Sample Wgetrc::).
  376. File: wget.info,  Node: Guru Usage,  Prev: Advanced Usage,  Up: Examples
  377. Guru Usage
  378. ==========
  379.    * If you wish Wget to keep a mirror of a page (or FTP
  380.      subdirectories), use `--mirror' (`-m'), which is the shorthand for
  381.      `-r -N'.  You can put Wget in the crontab file asking it to
  382.      recheck a site each Sunday:
  383.           crontab
  384.           0 0 * * 0 wget --mirror ftp://ftp.xemacs.org/pub/xemacs/ -o /home/me/weeklog
  385.    * You may wish to do the same with someone's home page.  But you do
  386.      not want to download all those images--you're only interested in
  387.      HTML.
  388.           wget --mirror -A.html http://www.w3.org/
  389.    * But what about mirroring the hosts networkologically close to you?
  390.      It seems so awfully slow because of all that DNS resolving.  Just
  391.      use `-D' (*Note Domain Acceptance::).
  392.           wget -rN -Dsrce.hr http://www.srce.hr/
  393.      Now Wget will correctly find out that `regoc.srce.hr' is the same
  394.      as `www.srce.hr', but will not even take into consideration the
  395.      link to `www.mit.edu'.
  396.    * You have a presentation and would like the dumb absolute links to
  397.      be converted to relative?  Use `-k':
  398.           wget -k -r URL
  399.    * You would like the output documents to go to standard output
  400.      instead of to files?  OK, but Wget will automatically shut up
  401.      (turn on `--quiet') to prevent mixing of Wget output and the
  402.      retrieved documents.
  403.           wget -O - http://jagor.srce.hr/ http://www.srce.hr/
  404.      You can also combine the two options and make weird pipelines to
  405.      retrieve the documents from remote hotlists:
  406.           wget -O - http://cool.list.com/ | wget --force-html -i -
  407. File: wget.info,  Node: Various,  Next: Appendices,  Prev: Examples,  Up: Top
  408. Various
  409. *******
  410.    This chapter contains all the stuff that could not fit anywhere else.
  411. * Menu:
  412. * Distribution::        Getting the latest version.
  413. * Mailing List::        Wget mailing list for announcements and discussion.
  414. * Reporting Bugs::      How and where to report bugs.
  415. * Portability::         The systems Wget works on.
  416. * Signals::             Signal-handling performed by Wget.
  417. File: wget.info,  Node: Distribution,  Next: Mailing List,  Prev: Various,  Up: Various
  418. Distribution
  419. ============
  420.    Like all GNU utilities, the latest version of Wget can be found at
  421. the master GNU archive site prep.ai.mit.edu, and its mirrors.  For
  422. example, Wget 1.4.3 is at:
  423.      <URL:ftp://prep.ai.mit.edu/pub/gnu/wget-1.4.3.tar.gz>.
  424.    The latest version is also available via FTP from the maintainer's
  425. machine, at:
  426.      <URL:ftp://gnjilux.cc.fer.hr/pub/unix/util/wget/wget.tar.gz>.
  427.    This location is mirrored at:
  428.      <URL:ftp://sunsite.auc.dk/pub/infosystems/wget/> and
  429.      <URL:http://sunsite.auc.dk/ftp/pub/infosystems/wget/>.
  430.      <URL:ftp://ftp.fu-berlin.de/pub/unix/network/wget/>
  431.    I'll try to make a "real" home page for Wget some time in the future.
  432. If you would like to do it, please say so--I'll be delighted.
  433. File: wget.info,  Node: Mailing List,  Next: Reporting Bugs,  Prev: Distribution,  Up: Various
  434. Mailing List
  435. ============
  436.    Wget has its own mailing list at `<wget@sunsite.auc.dk>', thanks to
  437. Karsten Thygesen.  The mailing list is for discussion of Wget features
  438. and web, reporting Wget bugs (those that you think may be of interest
  439. to the public) and mailing announcements.  You are welcome to
  440. subscribe.  The more people on the list, the better!
  441.    To subscribe, send mail to `<wget-request@sunsite.auc.dk>' with the
  442. magic word `subscribe' in the subject line.  Unsubscribe analogously.
  443.    The mailing list is archived at
  444. `http://fly.cc.fer.hr/en/wget-archive.mbox'.
  445. File: wget.info,  Node: Reporting Bugs,  Next: Portability,  Prev: Mailing List,  Up: Various
  446. Reporting Bugs
  447. ==============
  448.    You are welcome to send bug reports about GNU Wget to
  449. `<bug-wget@prep.ai.mit.edu>'.  The bugs that you think are of the
  450. interest to the public (i.e. more people should be informed about them)
  451. can be Cc-ed to the mailing list at `<wget@sunsite.auc.dk>'.
  452.    Before actually submitting a bug report, please try to follow a few
  453. simple guidelines.
  454.   1. Please try to ascertain that the behaviour you see really is a
  455.      bug.  If Wget crashes, it's a bug.  If Wget does not behave as
  456.      documented, it's a bug.  If things work strange, but you are not
  457.      sure about the way they are supposed to work, it might well be a
  458.      bug.
  459.   2. Try to repeat the bug in as simple circumstances as possible.
  460.      E.g. if Wget crashes on `wget -rLl0 -t5 -Y0 http://yoyodyne.com -o
  461.      /tmp/log', you should try to see if it will crash with a simpler
  462.      set of options.
  463.   3. Please start Wget with `-d' option and send the log (or the
  464.      relevant parts of it).  If Wget was compiled without debug support,
  465.      recompile it.  It is *much* easier to trace bugs with debug support
  466.      on.
  467.   4. If Wget has crashed, try to run it in a debugger, e.g. `gdb `which
  468.      wget` core' and type `where' to get the backtrace.
  469.   5. Find where the bug is, fix it and send me the patches. :-)
  470. File: wget.info,  Node: Portability,  Next: Signals,  Prev: Reporting Bugs,  Up: Various
  471. Portability
  472. ===========
  473.    Since Wget uses GNU Autoconf for building and configuring, and avoids
  474. using "special" features of any one Unix system, it should compile (and
  475. work) on all common flavors of Unix.
  476.    This version was compiled and tested this version on various Unix
  477. systems, including Solaris, Linux, SunOS, OSF (aka Digital Unix), and
  478. Ultrix; refer to the file `MACHINES' in the distribution directory for
  479. a comprehensive list.  If you compile it on an architecture not listed
  480. there, please let me know.
  481.    Wget should also compile on the other Unix systems, not listed in
  482. `MACHINES'.  If it doesn't, please let me know.
  483. File: wget.info,  Node: Signals,  Prev: Portability,  Up: Various
  484. Signals
  485. =======
  486.    Since the purpose of Wget is background work, it catches the hangup
  487. signal (`SIGHUP') and ignores it.  If the output was on standard
  488. output, it will be redirected to a file named `wget-log'.  Otherwise,
  489. `SIGHUP' is ignored.  This is convenient when you wish to redirect the
  490. output of Wget after having started it.
  491.      $ wget http://www.ifi.uio.no/~larsi/gnus.tar.gz &
  492.      $ kill -HUP %%     # Redirect the output to wget-log
  493.    Other than that, Wget will not try to interfere with signals in any
  494. way. `C-c', `kill -TERM' and `kill -KILL' should kill it alike.
  495. File: wget.info,  Node: Appendices,  Next: Copying,  Prev: Various,  Up: Top
  496. Appendices
  497. **********
  498.    This chapter contains some references I consider useful, like the
  499. Robots Exclusion Standard specification, as well as a list of
  500. contributors to GNU Wget.
  501. * Menu:
  502. * Robots::                  Wget as a WWW robot.
  503. * Security Considerations:: Security with Wget.
  504. * Contributors::            People who helped.
  505. File: wget.info,  Node: Robots,  Next: Security Considerations,  Prev: Appendices,  Up: Appendices
  506. Robots
  507. ======
  508.    Since Wget is able to traverse the web, it counts as one of the Web
  509. "robots".  Thus Wget understands "Robots Exclusion Standard"
  510. (RES)--contents of `/robots.txt', used by server administrators to
  511. shield parts of their systems from wanderings of Wget.
  512.    Norobots support is turned on only when retrieving recursively, and
  513. *never* for the first page.  Thus, you may issue:
  514.      wget -r http://fly.cc.fer.hr/
  515.    First the index of fly.cc.fer.hr will be downloaded.  If Wget finds
  516. anything worth downloading on the same host, only *then* will it load
  517. the robots, and decide whether or not to load the links after all.
  518. `/robots.txt' is loaded only once per host.  Wget does not support the
  519. robots `META' tag.
  520.    The description of the norobots standard was written, and is
  521. maintained by Martijn Koster `<m.koster@webcrawler.com>'.  With his
  522. permission, I contribute a (slightly modified) texified version of the
  523. * Menu:
  524. * Introduction to RES::
  525. * RES Format::
  526. * User-Agent Field::
  527. * Disallow Field::
  528. * Norobots Examples::
  529. File: wget.info,  Node: Introduction to RES,  Next: RES Format,  Prev: Robots,  Up: Robots
  530. Introduction to RES
  531. -------------------
  532.    "WWW Robots" (also called "wanderers" or "spiders") are programs
  533. that traverse many pages in the World Wide Web by recursively
  534. retrieving linked pages. For more information see the robots page.
  535.    In 1993 and 1994 there have been occasions where robots have visited
  536. WWW servers where they weren't welcome for various reasons. Sometimes
  537. these reasons were robot specific, e.g. certain robots swamped servers
  538. with rapid-fire requests, or retrieved the same files repeatedly. In
  539. other situations robots traversed parts of WWW servers that weren't
  540. suitable, e.g. very deep virtual trees, duplicated information,
  541. temporary information, or cgi-scripts with side-effects (such as
  542. voting).
  543.    These incidents indicated the need for established mechanisms for
  544. WWW servers to indicate to robots which parts of their server should
  545. not be accessed. This standard addresses this need with an operational
  546. solution.
  547.    This document represents a consensus on 30 June 1994 on the robots
  548. mailing list (`robots@webcrawler.com'), between the majority of robot
  549. authors and other people with an interest in robots. It has also been
  550. open for discussion on the Technical World Wide Web mailing list
  551. (`www-talk@info.cern.ch'). This document is based on a previous working
  552. draft under the same title.
  553.    It is not an official standard backed by a standards body, or owned
  554. by any commercial organization. It is not enforced by anybody, and there
  555. no guarantee that all current and future robots will use it. Consider
  556. it a common facility the majority of robot authors offer the WWW
  557. community to protect WWW server against unwanted accesses by their
  558. robots.
  559.    The latest version of this document can be found at:
  560.      http://info.webcrawler.com/mak/projects/robots/norobots.html
  561. File: wget.info,  Node: RES Format,  Next: User-Agent Field,  Prev: Introduction to RES,  Up: Robots
  562. RES Format
  563. ----------
  564.    The format and semantics of the `/robots.txt' file are as follows:
  565.    The file consists of one or more records separated by one or more
  566. blank lines (terminated by `CR', `CR/NL', or `NL').  Each record
  567. contains lines of the form:
  568.      <field>:<optionalspace><value><optionalspace>
  569.    The field name is case insensitive.
  570.    Comments can be included in file using UNIX bourne shell conventions:
  571. the `#' character is used to indicate that preceding space (if any) and
  572. the remainder of the line up to the line termination is discarded.
  573. Lines containing only a comment are discarded completely, and therefore
  574. do not indicate a record boundary.
  575.    The record starts with one or more User-agent lines, followed by one
  576. or more Disallow lines, as detailed below. Unrecognized headers are
  577. ignored.
  578.    The presence of an empty `/robots.txt' file has no explicit
  579. associated semantics, it will be treated as if it was not present, i.e.
  580. all robots will consider themselves welcome.
  581. File: wget.info,  Node: User-Agent Field,  Next: Disallow Field,  Prev: RES Format,  Up: Robots
  582. User-Agent Field
  583. ----------------
  584.    The value of this field is the name of the robot the record is
  585. describing access policy for.
  586.    If more than one User-agent field is present the record describes an
  587. identical access policy for more than one robot.  At least one field
  588. needs to be present per record.
  589.    The robot should be liberal in interpreting this field. A case
  590. insensitive substring match of the name without version information is
  591. recommended.
  592.    If the value is `*', the record describes the default access policy
  593. for any robot that has not matched any of the other records. It is not
  594. allowed to have multiple such records in the `/robots.txt' file.
  595. File: wget.info,  Node: Disallow Field,  Next: Norobots Examples,  Prev: User-Agent Field,  Up: Robots
  596. Disallow Field
  597. --------------
  598.    The value of this field specifies a partial URL that is not to be
  599. visited. This can be a full path, or a partial path; any URL that
  600. starts with this value will not be retrieved. For example,
  601. `Disallow: /help' disallows both `/help.html' and `/help/index.html',
  602. whereas `Disallow: /help/' would disallow `/help/index.html' but allow
  603. `/help.html'.
  604.    Any empty value, indicates that all URLs can be retrieved. At least
  605. one Disallow field needs to be present in a record.
  606. File: wget.info,  Node: Norobots Examples,  Prev: Disallow Field,  Up: Robots
  607. Norobots Examples
  608. -----------------
  609.    The following example `/robots.txt' file specifies that no robots
  610. should visit any URL starting with `/cyberworld/map/' or `/tmp/':
  611.      # robots.txt for http://www.site.com/
  612.      
  613.      User-agent: *
  614.      Disallow: /cyberworld/map/ # This is an infinite virtual URL space
  615.      Disallow: /tmp/ # these will soon disappear
  616.    This example `/robots.txt' file specifies that no robots should
  617. visit any URL starting with `/cyberworld/map/', except the robot called
  618. `cybermapper':
  619.      # robots.txt for http://www.site.com/
  620.      
  621.      User-agent: *
  622.      Disallow: /cyberworld/map/ # This is an infinite virtual URL space
  623.      
  624.      # Cybermapper knows where to go.
  625.      User-agent: cybermapper
  626.      Disallow:
  627.    This example indicates that no robots should visit this site further:
  628.      # go away
  629.      User-agent: *
  630.      Disallow: /
  631. File: wget.info,  Node: Security Considerations,  Next: Contributors,  Prev: Robots,  Up: Appendices
  632. Security Considerations
  633. =======================
  634.    When using Wget, you must be aware that it is sends unencrypted
  635. passwords through the network, which may present a security problem.
  636. Here are the main issues, and some solutions.
  637.   1. The passwords on the command line are visible using `ps'.  If this
  638.      is a problem, avoid putting passwords from the command line--e.g.
  639.      you can use `.netrc' for this.
  640.   2. Only the insecure "basic" authentication scheme is supported in
  641.      HTTP, which also sends unencrypted passwords through the network
  642.      all routers and gateways.  Feel free to implement something better.
  643.   3. The FTP passwords are also in no way encrypted.  There is no good
  644.      solution for this at the moment.
  645.   4. Although the "normal" output of Wget tries to hide the passwords,
  646.      debugging logs show them, in all forms.  This problem is avoided by
  647.      being careful when you send debug logs (yes, even when you send
  648.      them to me).
  649. File: wget.info,  Node: Contributors,  Prev: Security Considerations,  Up: Appendices
  650. Contributors
  651. ============
  652.    GNU Wget was written by Hrvoje Niksic `<hniksic@srce.hr>'.  However,
  653. its development could never have gone as far as it has, were it not for
  654. the help of many people, either with bug reports, feature proposals,
  655. patches, or letters saying "Thanks!".
  656.    Special thanks goes to the following people (no particular order):
  657.    * Karsten Thygesen--donated FTP space and mailing list.
  658.    * Shawn McHorse--bug reports and patches.
  659.    * Kaveh R. Gazi--on-the-fly ansi2knr-ization.
  660.    * Gordon Matzigkeit--`.netrc' support.
  661.    * Zlatko Calusic, Drazen Kacar--feature suggestions and
  662.      "philosophical" discussions.
  663.    * Darko Budor--port to Windows.
  664.    * Antonio Rosella--help and suggestions.
  665.    * Tomislav Petrovic, Mario Mikocevic--many bug reports and
  666.      suggestions.
  667.    The following people have either provided bug reports, useful
  668. suggestoins, or beta tested the various releases:
  669.    Dieter Baron, Roger Beeman, Mark Boyns, Kristijan Conkas, Damir
  670. Dzeko, Andrew Davison, Marc Duponcheel, Aleksandar Erkalovic, Gregor
  671. Hoffleit, Erik Magnus Hulthen, Richard Huveneers, Marijo Juric, Goran
  672. Kezunovic, Martin Kraemer, Tage Stabell-Kulo, Hrvoje Lacko, Francois
  673. Pinard, Andrew Pollock, Steve Pothier, Sven Sternberger, Markus
  674. Strasser, Russell Vincent, Tomislav Vujec, Jasmin Zainul, Bojan Zdrnja,
  675. Kristijan Zimmer.
  676.    I apologize to all whom I forgot to mention (probably a lot).  Also
  677. thanks to all the subscribers of the Wget mailing list.
  678.